Discuție Wikționar:Importare dexonline.ro

Conținutul paginii nu este suportat în alte limbi.
De la Wikționar, dicționarul liber

Observații[modificare]

Câteva observații de bun simț:

  1. va fi foarte greu de găsit traducerile - ar trebui folosit tot un dicționar, dar nu știu prea multe GFDL și nici pentru toate limbile care au un wikționar
  2. la dexonline e menționat și accentul, ceea ce la wikționar nu se intâmplă (rămâne așa sau schimbăm regula?)
  3. ar fi bine să ne limităm la DEX98 pentru început, celelalte definiții pot avea o structură ușor diferită și să iasă o varză
  4. atenție la ordinea din articole, la noi etimologia e înaintea definițiilor, n-am avut rabdare sa vad cum se poate extrage informația asta
  5. regexurile de punere în format wiki ar fi ceva de genu (referintele depind de limbajul in care va fi implementat robotul):
dexonlinewikiexplicatie
/^(.*)(\@[0-9]\.\@)(.*)$/
/^\\1\n\n# \\3$/
diferitele sensuri ale cuvintelor
/^(.*)(\@)(.*)$/
/^\\1'''\\3$/
bold
/^(.*)(\$)(.*)$/
/^\\1''\\3$/
italic
/^(.*)(\^a)(.*)$/
/^\\1â\\3$/
â
/^(.*)(\~a)(.*)$/
/^\\1ă\\3$/
ă
/^(.*)(\*)(.*)$/
/^\\1♦\\3$/
nu sunt sigur ce reprezintă
/^(.*)(\^i)(.*)$/
/^\\1î\\3$/
î
/^(.*)(\\s)(.*)$/
/^\\1ș\\3$/
ș
/^(.*)(\\t)(.*)$/
/^\\1ț\\3$/
ț
/^(.*)(\|{1})(.*)$/
/^\\1[[\\3$/
deschidere legătură internă
/^(.*)(\|{2})(.*)$/
/^\\1]]\\3$/
închidere legătură internă

Sper să nu fi uitat vreuna. --Strainu 13 ianuarie 2007 16:45 (UTC)[răspunde]

  1. Nu e neapărat să găsim traducerea cuvintelor importate.
  2. La Wikționar nu este accent deoarece există transcrierea fonetică, care va rămâne de introdus tot manual.
  3. Cred că ar fi de preferat să ne limităm numai la NODEX, deoarece e sub GPL, spre deosebire de DEX care este sub copyright.
  4. Etimologia într-o definiție de pe dexonline este precedată de "– Din ". Ce urmează trebuie introdus la începutul paginii de pe Wikționar.

Deși cred că este implicit, paginile deja existente pe wiki nu trebuiesc alterate. —SCriBu msg 13 ianuarie 2007 17:49 (UTC)[răspunde]

La 4 nu neaparat, mai ales la NODEX (vezi si caine). Cat despre copyright, am hotarat sa iau taurul de coarne si sa intreb :) Am dat un email la Institutul de lingvistica si daca nu-mi raspund o sa dau si un telefon. In varianta tiparita scrie ca editura are drepturi numai asupra editiei respective.--Strainu 13 ianuarie 2007 21:17 (UTC)[răspunde]

Categorie separată[modificare]

Cred că ar fi bine ca paginile create să fie puse automat într-o categorie separată, cum ar fi Categorie:Pagini importate pentru a fi verificate manual și formatate mai departe, după care pot fi șterse din categoria respectivă. —SCriBu msg 13 ianuarie 2007 18:37 (UTC)[răspunde]

Structura paginii[modificare]


=={{limba|ro}}==
{{-etimologie-}}
Din ''[[latină|lat.]] <cuvânt de proveniență>''.
{{-pronunție-}}
{{-pron-lipsă-|ro}}
{{-substantiv-}}  ← TREBUIE EXTRAS DIN PRESCURTAREA DINAINTEA DEFINIȚIILOR

# <definiția 1>

# <definiția 2>

==Referințe==
[http://dexonline.ro dexonline.ro]

[[Categorie:Pagini importate]]

Pentru programatori[modificare]

Dintr-un dump de DB de la dexonline, am scos un fișier text într-un format simplu, cu toate definițiile. Îl puteți lua de aici (e comprimat cu gzip, și e în codarea UTF-8). Formatul este următorul:

Id <tab> Id_sursa <tab> "Sursa" <tab> timestamp_creare <tab> timestamp_modificare <tab> user_id <tab> "titlu" <tab> definiție, așa cum apare în DB.

Am trîntit și un mic script în Ruby, care parsează definițiile și încearcă să producă pagini wiki ca cea de mai sus. Mai are bug-uri multe, dar acum îmi pică ochii în gură de somn :) așa că am să revin asupra lui în cîteva ore. Iulianu 14 ianuarie 2007 05:12 (UTC)[răspunde]

Structură[modificare]


=={{limba|ro}}==
{{-etimologie-}}
Din ''[[latină|lat.]] <cuvânt de proveniență>''.
{{-pronunție-}}
{{-pron-lipsă-|ro}}
{{-substantiv-}}  ← TREBUIE EXTRAS DIN PRESCURTAREA DINAINTEA DEFINIȚIILOR
# <definiția 1>
# <definiția 2>

{{-trad-}}
{{(}}
*{{da}}: {{trad|da|}}
*{{en}}: {{trad|en|}}
*{{fr}}: {{trad|fr|}}
*{{de}}: {{trad|de|}}
{{-}}
*{{nl}}: {{trad|nl|}}
*{{pl}}: {{trad|pl|}}
*{{es}}: {{trad|es|}}
*{{sv}}: {{trad|sv|}}
{{)}}

==Referințe==
[http://dexonline.ro dexonline.ro]

[[Categorie:Pagini importate]]

Așa zic eu că ar trebui să fie o pagină. Am adăugat formatele pentru traduceri; astfel e mai ușor când vor fi adăugate efectiv, nefiind necesar să se mai scrie/copieze partea de cod. Am pus doar 8, cele care sunt folosite și la autoformatare, ele fiind limbile în care se traduce cel mai des.

Pe lângă asta, deși nu am modificat, cred că e cam greu să se identifice partea de vorbire, așa că partea asta ar putea fi omisă și lăsată pentru corectură. Oricum, la cuvintele care pot fi mai multe părți de vorbire simultan e destul de greu să separi definițiile pe categorii.

Iar la etimologie nu sunt sigur că au toate o aceeași formă. Din câte am observat, au mai multe stiluri. Dacă nu se reușește, mai bine se pune formatul {{-etim-lipsă-|ro}}. — KlaudiuMihăilă Mesaj 15 ianuarie 2007 19:24 (UTC)[răspunde]